本文介绍了一项关于多连杆航空车(MRAV)与可倾斜螺旋桨在不同方向上实现和维持静态盘旋的能力的理论研究。为了分析具有可倾斜螺旋桨实现静态盘旋的MRAV的能力,引入了平台控制输入和应用力和矩之间的新型线性图。引入地图与平台在不同方向上悬停的能力之间的关系。相应地,详细介绍了具有可倾斜螺旋桨的MRAV来实现和维持静态盘旋的条件。然后引入了数值指标,这反映了MRAV在不同方向上维持静态盘旋的能力。带有可倾斜螺旋桨的MRAV的子类定义为静态悬停的平台(CSH),其中CSH平台是MRAV,无法维持与固定螺旋桨悬停的静态悬停,但可以通过倾斜螺旋桨实现静态悬停。最后,进行了广泛的仿真来测试和验证上述发现,并证明所提出的数值指标对平台动力学的影响。
translated by 谷歌翻译
神经形态的愿景是一种生物启发技术,它已经引发了计算机视觉界的范式转变,并作为众多应用的关键推动器。该技术提供了显着的优势,包括降低功耗,降低处理需求和通信加速。然而,神经形态摄像机患有大量的测量噪声。这种噪声恶化了基于神经形态事件的感知和导航算法的性能。在本文中,我们提出了一种新的噪声过滤算法来消除不代表观察场景中的实际记录强度变化的事件。我们采用图形神经网络(GNN) - 驱动的变压器算法,称为GNN变换器,将原始流中的每个活动事件像素分类为实木强度变化或噪声。在GNN中,传递一个名为EventConv的消息传递框架,以反映事件之间的时空相关性,同时保留它们的异步性质。我们还介绍了在各种照明条件下生成事件流的近似地面真理标签(KogT1)方法。 Kogtl用于生成标记的数据集,从记录在充满挑战的照明条件下进行的实验。这些数据集用于培训和广泛测试我们所提出的算法。在取消检测的数据集上测试时,所提出的算法在过滤精度方面优于现有方法12%。还对公共数据集进行了额外的测试,以展示在存在照明变化和不同运动动态的情况下所提出的算法的泛化能力。与现有解决方案相比,定性结果验证了所提出的算法的卓越能力,以消除噪音,同时保留有意义的场景事件。
translated by 谷歌翻译
Large language models (LLMs) have demonstrated impressive capabilities in natural language understanding and generation, but the quality bar for medical and clinical applications is high. Today, attempts to assess models' clinical knowledge typically rely on automated evaluations on limited benchmarks. There is no standard to evaluate model predictions and reasoning across a breadth of tasks. To address this, we present MultiMedQA, a benchmark combining six existing open question answering datasets spanning professional medical exams, research, and consumer queries; and HealthSearchQA, a new free-response dataset of medical questions searched online. We propose a framework for human evaluation of model answers along multiple axes including factuality, precision, possible harm, and bias. In addition, we evaluate PaLM (a 540-billion parameter LLM) and its instruction-tuned variant, Flan-PaLM, on MultiMedQA. Using a combination of prompting strategies, Flan-PaLM achieves state-of-the-art accuracy on every MultiMedQA multiple-choice dataset (MedQA, MedMCQA, PubMedQA, MMLU clinical topics), including 67.6% accuracy on MedQA (US Medical License Exam questions), surpassing prior state-of-the-art by over 17%. However, human evaluation reveals key gaps in Flan-PaLM responses. To resolve this we introduce instruction prompt tuning, a parameter-efficient approach for aligning LLMs to new domains using a few exemplars. The resulting model, Med-PaLM, performs encouragingly, but remains inferior to clinicians. We show that comprehension, recall of knowledge, and medical reasoning improve with model scale and instruction prompt tuning, suggesting the potential utility of LLMs in medicine. Our human evaluations reveal important limitations of today's models, reinforcing the importance of both evaluation frameworks and method development in creating safe, helpful LLM models for clinical applications.
translated by 谷歌翻译
使用计算机视觉对间接费用的分析是一个问题,在学术文献中受到了很大的关注。在这个领域运行的大多数技术都非常专业,需要大型数据集的昂贵手动注释。这些问题通过开发更通用的框架来解决这些问题,并结合了表示学习的进步,该框架可以更灵活地分析具有有限标记数据的新图像类别。首先,根据动量对比机制创建了未标记的空中图像数据集的强大表示。随后,通过构建5个标记图像的准确分类器来专门用于不同的任务。从6000万个未标记的图像中,成功的低水平检测城市基础设施进化,体现了我们推进定量城市研究的巨大潜力。
translated by 谷歌翻译
恶意软件检测在网络安全中起着至关重要的作用,随着恶意软件增长的增加和网络攻击的进步。以前看不见的恶意软件不是由安全供应商确定的,这些恶意软件通常在这些攻击中使用,并且不可避免地要找到可以从未标记的样本数据中自学习的解决方案。本文介绍了Sherlock,这是一种基于自学的深度学习模型,可根据视觉变压器(VIT)体系结构检测恶意软件。 Sherlock是一种新颖的恶意软件检测方法,它可以通过使用基于图像的二进制表示形式来学习独特的功能,以区分恶意软件和良性程序。在47种类型和696个家庭的层次结构中使用120万个Android应用的实验结果表明,自我监督的学习可以达到97%的恶意软件分类,而恶意软件的二进制分类比现有的最新技术更高。我们提出的模型还能够胜过针对多级恶意软件类型和家庭的最先进技术,分别为.497和.491。
translated by 谷歌翻译
机器学习系统对通过风险分数预测患者不良事件的预测显示出了巨大的希望。但是,根据培训数据中存在的干预政策,这些风险分数隐含地编码有关患者可能会接受的未来干预措施的假设。没有这种重要的背景,这些系统的预测对于临床医生而言是不太可解释的。我们提出了一种干预政策和不利事件风险的联合模型,以此作为明确传达模型对未来干预措施的假设的一种手段。我们开发了一种关于Mimic-III的干预政策模型,这是一个现实世界中的ICU数据集,并讨论了一些用例突出该方法的实用性。我们展示了将典型的风险评分(例如死亡率的可能性)与未来干预概率分数相结合,从而导致更明显的临床预测。
translated by 谷歌翻译
太空探索目睹了毅力漫游者登陆火星表面,并展示了火星直升机超越地球以外的第一次飞行。在他们在火星上的任务中,毅力漫游者和Ingenuity合作探索了火星表面,Ingenuity侦察员地形信息为Rover的安全穿越。因此,确定两个平台之间的相对姿势对于此任务的成功至关重要。在这种必要性的驱动下,这项工作提出了基于基于神经形态视觉测量(NVBM)和惯性测量的融合的强大相对定位系统。神经形态视觉的出现引发了计算机视觉社区的范式转变,这是由于其独特的工作原理由现场发生的光强度变化触发的异步事件所划定。这意味着由于照明不变性而无法在静态场景中获取观察结果。为了规避这一限制,在场景中插入了高频活动地标,以确保一致的事件射击。这些地标被用作促进相对定位的显着特征。开发了一种新型的基于事件的地标识别算法,使用高斯混合模型(GMM),用于匹配我们NVBM的地标对应。 NVBM与提议的状态估计器中的惯性测量,地标跟踪Kalman滤波器(LTKF)和翻译解耦的Kalman Filter(TDKF)分别用于地标跟踪和相对定位。该系统在各种实验中进行了测试,并且在准确性和范围方面具有优于最先进的方法。
translated by 谷歌翻译
语音信号的多分辨率光谱特征代表大脑通过将皮质细胞调整为不同光谱和时间调制的方式来感知声音。这些功能会产生语音信号的较高维度表示。本文的目的是评估语音信号的听觉皮层表示对这些相应信号的估计发音特征的贡献。自从获得语音信号的声学特征的发音特征一直是不同语音社区感兴趣的主题,我们研究了将语音信号作为声学特征的多分辨率表示的可能性。我们使用威斯康星州X射线微束(XRMB)的清洁语音信号数据库来训练馈送前进的深神经网络(DNN),以估计六个区域变量的关节轨迹。使用适当的量表和速率向量参数选择了最佳的多分辨率光谱特征来训练模型,以获得最佳性能模型。实验与地面真相变量的相关性达到0.675。我们将该语音反演系统的性能与使用MEL频率曲线系数(MFCC)进行的先前实验进行了比较。
translated by 谷歌翻译
非接触式和高效的系统迅速实施,以提倡对抗Covid-19大流行的预防方法。尽管此类系统的积极效益,但通过侵入用户隐私有潜力。在这项工作中,我们通过使用掩蔽面部图像预测隐私敏感的软生物测量来分析面部生物识别系统的隐私侵犯性。我们根据Reset-50架构培训并申请CNN,具有20,003个合成屏蔽图像并测量隐私侵犯性。尽管人们在人们中戴着面具的隐私益处存在受欢迎的信念,但我们表明,当面具磨损时,隐私侵犯性没有显着差异。在我们的实验中,我们能够准确地预测来自蒙面的面部图像的性别(94.7%),种族(83.1%)和年龄(MAE 6.21和RMSE 8.33)。我们所提出的方法可以作为基准实用程序来评估利用隐私敏感信息的人工智能系统的隐私侵犯性。我们开展研究界的重新提供和更广泛的使用贡献。
translated by 谷歌翻译
在空中/卫星图像分析(遥感)的许多应用中,对象的精确形状的产生是一个麻烦的任务。在诸如计数对象的大多数遥感应用中,只需要对象的位置估计。因此,在空中/卫星图像中定位对象质心是一种容易解决物体的精确形状而不是必需的解决方案。因此,本研究侧重于评估使用深神经网络来定位卫星图像中对象质心的可行性。我们的模型的名称是质心 - UNET。质心 - UNET模型基于经典U-Net语义分段架构。我们修改并调整了U-Net语义分段架构的质心检测模型,保留了原始模型的简单性。此外,我们已经测试并评估了我们的模型,其中包括涉及空中/卫星图像的两种案例研究。这两种案例研究正在建立质心检测案例研究和椰子树心脏检测案例研究。与其他方法相比,我们的评估结果达到了良好的准确性,并且还提供简单性。本研究下开发的代码和模型也可在Centroid-UNET Github存储库中提供:https://github.com/gicait/centroid- inet
translated by 谷歌翻译